<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">
	<title>通配符与正则表达式查询 | Elasticsearch: 权威指南 | Elastic</title>
    <!-- Give IE8 a fighting chance -->
    <!--[if lt IE 9]>
    <script src="https://oss.maxcdn.com/html5shiv/3.7.2/html5shiv.min.js"></script>
    <script src="https://oss.maxcdn.com/respond/1.4.2/respond.min.js"></script>
    <![endif]-->
	<link rel="stylesheet" type="text/css" href="../static/styles.css" />
</head>
<body>
<div class="main-container">
    <section id="content">
        
        <div class="content-wrapper">
            <section id="guide" lang="zh_cn">
                <div class="container">
                    <div class="row">
                        <div class="col-xs-12 col-sm-8 col-md-8 guide-section">
                            <div style="color:gray; word-break: break-all; font-size:12px;">原文地址: <a href="https://www.elastic.co/guide/cn/elasticsearch/guide/current/_wildcard_and_regexp_queries.html" rel="nofollow">https://www.elastic.co/guide/cn/elasticsearch/guide/current/_wildcard_and_regexp_queries.html</a>, 版权归 www.elastic.co 所有<br/>
                            英文版地址: <a href="https://www.elastic.co/guide/en/elasticsearch/guide/current/_wildcard_and_regexp_queries.html" rel="nofollow">https://www.elastic.co/guide/en/elasticsearch/guide/current/_wildcard_and_regexp_queries.html</a>
                            </div>
                        <!-- start body -->
                  <div class="page_header">
<b>请注意:</b><br>本书基于 Elasticsearch 2.x 版本，有些内容可能已经过时。
</div>
<div id="content">
<div class="breadcrumbs">
<span class="breadcrumb-link"><a href="index.html">Elasticsearch: 权威指南</a></span>
»
<span class="breadcrumb-link"><a href="search-in-depth.html">深入搜索</a></span>
»
<span class="breadcrumb-link"><a href="partial-matching.html">部分匹配</a></span>
»
<span class="breadcrumb-node">通配符与正则表达式查询</span>
</div>
<div class="navheader">
<span class="prev">
<a href="prefix-query.html">« prefix 前缀查询</a>
</span>
<span class="next">
<a href="_query_time_search_as_you_type.html">查询时输入即搜索 »</a>
</span>
</div>
<div class="section">
<div class="titlepage"><div><div>
<h2 class="title">
<a id="_wildcard_and_regexp_queries"></a>通配符与正则表达式查询<a class="edit_me edit_me_private" rel="nofollow" title="Editing on GitHub is available to Elastic" href="https://github.com/elasticsearch-cn/elasticsearch-definitive-guide/edit/cn/130_Partial_Matching/15_WildcardRegexp.asciidoc">edit</a>
</h2>
</div></div></div>
<p>与 <code class="literal">prefix</code> 前缀查询的特性类似， <code class="literal">wildcard</code> 通配符查询也是一种底层基于词的查询，与前缀查询不同的是它允许指定匹配的正则式。它使用标准的 shell 通配符查询： <code class="literal">?</code> 匹配任意字符， <code class="literal">*</code> 匹配 0 或多个字符。</p>
<p>这个查询会匹配包含 <code class="literal">W1F 7HW</code> 和 <code class="literal">W2F 8HW</code> 的文档：</p>
<div class="pre_wrapper lang-sense">
<pre class="programlisting prettyprint lang-sense">GET /my_index/address/_search
{
    "query": {
        "wildcard": {
            "postcode": "W?F*HW" <a id="CO91-1"></a><i class="conum" data-value="1"></i>
        }
    }
}</pre>
</div>
<div class="sense_widget" data-snippet="snippets/130_Partial_Matching/15_Wildcard_regexp.json"></div>
<div class="calloutlist">
<table border="0" summary="Callout list">
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO91-1"><i class="conum" data-value="1"></i></a></p>
</td>
<td align="left" valign="top">
<p><code class="literal">?</code> 匹配 <code class="literal">1</code> 和 <code class="literal">2</code> ， <code class="literal">*</code> 与空格及 <code class="literal">7</code> 和 <code class="literal">8</code> 匹配。</p>
</td>
</tr>
</table>
</div>
<p>设想如果现在只想匹配 <code class="literal">W</code> 区域的所有邮编，前缀匹配也会包括以 <code class="literal">WC</code> 开头的所有邮编，与通配符匹配碰到的问题类似，如果想匹配只以 <code class="literal">W</code> 开始并跟随一个数字的所有邮编， <code class="literal">regexp</code> 正则式查询允许写出这样更复杂的模式：</p>
<div class="pre_wrapper lang-sense">
<pre class="programlisting prettyprint lang-sense">GET /my_index/address/_search
{
    "query": {
        "regexp": {
            "postcode": "W[0-9].+" <a id="CO92-1"></a><i class="conum" data-value="1"></i>
        }
    }
}</pre>
</div>
<div class="sense_widget" data-snippet="snippets/130_Partial_Matching/15_Wildcard_regexp.json"></div>
<div class="calloutlist">
<table border="0" summary="Callout list">
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO92-1"><i class="conum" data-value="1"></i></a></p>
</td>
<td align="left" valign="top">
<p>这个正则表达式要求词必须以 <code class="literal">W</code> 开头，紧跟 0 至 9 之间的任何一个数字，然后接一或多个其他字符。</p>
</td>
</tr>
</table>
</div>
<p><code class="literal">wildcard</code> 和 <code class="literal">regexp</code> 查询的工作方式与 <code class="literal">prefix</code> 查询完全一样，它们也需要扫描倒排索引中的词列表才能找到所有匹配的词，然后依次获取每个词相关的文档 ID ，与 <code class="literal">prefix</code> 查询的唯一不同是：它们能支持更为复杂的匹配模式。</p>
<p>这也意味着需要同样注意前缀查询存在性能问题，对有很多唯一词的字段执行这些查询可能会消耗非常多的资源，所以要避免使用左通配这样的模式匹配（如： <code class="literal">*foo</code> 或 <code class="literal">.*foo</code> 这样的正则式）。</p>
<p>数据在索引时的预处理有助于提高前缀匹配的效率，而通配符和正则表达式查询只能在查询时完成，尽管这些查询有其应用场景，但使用仍需谨慎。</p>
<div class="caution admon">
<div class="icon"></div>
<div class="admon_content">
<p><code class="literal">prefix</code> 、 <code class="literal">wildcard</code> 和 <code class="literal">regexp</code> 查询是基于词操作的，如果用它们来查询 <code class="literal">analyzed</code> 字段，它们会检查字段里面的每个词，而不是将字段作为整体来处理。</p>
<p>比方说包含 “Quick brown fox” （快速的棕色狐狸）的 <code class="literal">title</code> 字段会生成词： <code class="literal">quick</code> 、 <code class="literal">brown</code> 和 <code class="literal">fox</code> 。</p>
<p>会匹配以下这个查询：</p>
<div class="pre_wrapper lang-json">
<pre class="programlisting prettyprint lang-json">{ "regexp": { "title": "br.*" }}</pre>
</div>
<p>但是不会匹配以下两个查询：</p>
<div class="pre_wrapper lang-json">
<pre class="programlisting prettyprint lang-json">{ "regexp": { "title": "Qu.*" }} <a id="CO93-1"></a><i class="conum" data-value="1"></i>
{ "regexp": { "title": "quick br*" }} <a id="CO93-2"></a><i class="conum" data-value="2"></i></pre>
</div>
<div class="calloutlist">
<table border="0" summary="Callout list">
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO93-1"><i class="conum" data-value="1"></i></a></p>
</td>
<td align="left" valign="top">
<p>在索引里的词是 <code class="literal">quick</code> 而不是 <code class="literal">Quick</code> 。</p>
</td>
</tr>
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO93-2"><i class="conum" data-value="2"></i></a></p>
</td>
<td align="left" valign="top">
<p><code class="literal">quick</code> 和 <code class="literal">brown</code> 在词表中是分开的。</p>
</td>
</tr>
</table>
</div>
</div>
</div>
</div>
<div class="navfooter">
<span class="prev">
<a href="prefix-query.html">« prefix 前缀查询</a>
</span>
<span class="next">
<a href="_query_time_search_as_you_type.html">查询时输入即搜索 »</a>
</span>
</div>
</div>

                  <!-- end body -->
                        </div>
                        <div class="col-xs-12 col-sm-4 col-md-4" id="right_col">
                        
                        </div>
                    </div>
                </div>
            </section>
        </div>
    </section>
</div>
<script src="../static/cn.js"></script>
</body>
</html>